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摘要 :【 目 的] 利用 计算 机 模拟 技术 , 对 冈比亚 按 蚂 Anopheles gambiae 犬 尿 氮 酸 甲 酰胺 酶 
(kynurenine formamidase ，KFase) 的 潜在 抑制 剂 进行 虚拟 筛选 ,以 获得 可 以 削弱 冈比亚 按 蚊 作 为 中 
间 宿 主 传播 痊 疾 等 蚁 媒 疾病 的 候选 杀 蚊 剂 。【 方 法 】 下 载 冈 比 亚 按 蚊 KFase 的 氨基 酸 序 列 ,通过 
BLAST 方法 查询 不 同 物种 中 的 同 源 蛋 白质 ,并 利用 MEGA6 最 大 似 然 法 (maximum likelihood 
method ) 构建 进化 树 ,选择 适 于 作为 模板 的 同 源 蛋 白 黑 腹 果 蝇 Drosophila melanogaster KFase 蝇 体 结 
构 (PDB ID: 4E14) ,对 冈比亚 按 蚊 KFase 进行 三 维 建 模 。 利 用 随机 森林 算法 对 小 分 子 化 合 物 数据 
库 进 行 利 选 ,并 对 筛选 结果 进行 处 理 ,模拟 自然 条 件 下 有 机 小 分 子 与 冈比亚 按 蚊 KFase 的 结合 以 及 
分 子 对 接 ,从 而 第 选 出 冈比亚 按 蚁 KFase 的 潜在 抑制 剂 。【 结果 】 获 得 3 个 小 分 子 化 合 物 与 冈比亚 
按 蚊 KFase 结合 的 亲 和 能 较 低 ,分 别 是 :N-(2,4-diketo-1H-pyrimidin-6-yl ) -2-fluoro-benzamide;3-(4- 
fuorophenyl ) -2 , 4-dioxo-1 , 2 , 3 , 4-tetrahydropyrimidine-5-carboxylic acid; N-(2-oxo-2 , 3-dihydro-1H- 
imidazo[ 4,5-b ] pyridin-5-yl) -succinamic acid。 它 们 与 冈比亚 按 蚊 KFase 结合 的 亲 和 能 分 别 为 : 
-9.0, -8.7 和 -8.9 kcal/mol,【 结论 ] N-(2,4-diketo-1H-pyrimidin-6-yl) -2-fluoro-benzamide,N-(2- 
ox0-2,3-dihydro-1 H-imidazo[ 4,5-b | pyridin-5-yl ) -succinamic acid 和 3-(4-fluorophenyl ) -2 ,4-dioxo-1 ， 
2 ,3 ,4-tetrahydropyrimidine-5-carboxylic acid 是 冈比亚 按 蛟 犬 尿 氮 酸 甲 酰胺 酶 的 潜在 竞争 性 抑制 剂 ， 
这 些 化 合 物 是 否 可 作为 杀 蚊 剂 的 候选 化 合 物 有 待 实验 验证 。 
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Virtual screening of inhibitors for kynurenine formamidase of Anopheles 


gambiae (Diptera: Culicidae) 

SONG Shuai-Bao’, AI Shang-Jie’, GUAN Huai’”, HAN Qian™””* (1. Institute of Tropical Agriculture 
and Forestry, Hainan University, Haikou S70100, China; 2. College of Information Science & 
Technology, Hainan University, Haikou 570100, China) 

Abstract: [Aim) To screen potential inhibitors targeting kynurenine formamidase (KFase) of Anopheles 
gambiae, which could be a candidate insecticide to reduce malaria transmission, by virtual screening. 
[ Methods) Protein sequences homologous with KFase of An. gambiae were searched and downloaded 
from NCBI using BLASTP web server. Phylogenetic tree of homologous proteins was constructed by 
MECA6 using maximum likelihood method. Homology modeling of KFase of An. gambiae was performed 
by SWISS-MODEL web server using KFase of Drosophila melanogaster (PDB ID : 4E14) as a template. 
The small-molecule compounds were downloaded from ZINC database and then screened by the method of 
random forest. Docking analysis of the homology model and selected small molecule compounds was 


carried out, and the screening results were further validated using molecular dynamics simulation. 
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【 Results 】 Three small-molecule compounds, i. e., N-(2, 4-diketo-1H-pyrimidin-6-yl ) -2-fluoro- 


benzamide, 3-(4-fluorophenyl] ) -2 ,4-dioxo-l ,2 ,3,4-tetrahydropyrimidine-5-carboxylic acid, and N-(2- 


ox0-2, 3-dihydro-1 H-imidazo[ 4, 5-b | pyridin-5-yl) -succinamic acid, have the lowest docking energy to 


KFase of An. gambiae with the affinity energy of -9.0，-8.7 and -8.9 kcal/mol, respectively. 


【 Conclusion 】The three small-molecule compounds, i. e., N-(2,4-diketo-1H-pyrimidin-6-y] ) -2-fluoro- 


benzamide, 3-(4-fluorophenyl] ) -2 ,4-dioxo-l ,2 ,3 ,4-tetrahydropyrimidine-5-carboxylic acid, and N-(2- 


ox0-2, 3-dihydro-1 H-imidazo[ 4, 5-b ] pyridin-5$-yl ) -succinamic acid, could be candidate competitive 


inhibitors of KFase of An. gambiae. Whether these compounds can be used as candidate mosquitocides 


needs further experimental validation. 


Key words: Anopheles gambiae; malaria; kynurenine formamidase; inhibitor; virtual screening; random 


forest; bioinformatics 





症 疾 (malaria) 是 由 症 原 虫 Plasmodium spp. 导 
致 的 一 种 传染 性 疾病 ,其 传播 媒介 包括 冈比亚 按 蚊 
Anopheles gambiae 等 多 种 按 蚊 属 Anopheles 蚊虫 。 据 
估计 ,2015 年 全 球 共 有 2. 14 亿 症 疾 新 增 病例 ,大 约 
43.8 万 人 死 于 症 疾 ,而 其 中 有 80% 感染 人 数 和 
78% 的 死亡 人 数 在 非洲 (WHO, 2015 )。 内 比 亚 按 
蚊 An，gambiae 属于 动物 界 昆 虫 纲 双 翅 目 疏 科 按 蚊 
属 ,主要 分 布 于 撒哈拉 以 南非 洲 地 区 ,由 于 其 传播 包 
括 症 疾 在 内 的 多 种 疾病 ,因此 又 称 非洲 首 蚁 。 冈 比 
亚 按 蚊 的 代谢 影响 在 其 体内 的 症 原 虫 的 生长 发 育 ， 
如 色 氨 酸 的 代谢 产物 黄 尿 酸 是 症 原 虫 小 配子 发 生 所 
需 的 信号 分 子 ( Garcia et al., 1998)。 

在 大 多 数 真 核 生物 体内 , 色 氨 酸 代谢 主要 有 两 
条 途径 ,其 中 一 条 沿 5- 羟 色 胺 的 代谢 途径 ,另外 一 
条 沿 犬 尿 氨 酸 的 代谢 途径 。 犬 尿 氨 酸 代谢 途径 也 存 
在 于 包括 冈比亚 按 蚊 在 内 的 按 蚊 体 内 。 犬 尿 氨 酸 途 
径 的 一 些 中 间 产 物 有 着 特殊 的 生物 活性 , 与 一 些 疾 
病 的 发 生 有 密切 关系 , 除 症 疾 外 ,还 有 癌症 、 精 神 分 
裂 和 神经 退行 性 疾病 等 (Han et al., 2012)。 蚊 的 大 
尿 氮 酸 途径 中 , 色 氮 酸 逐 步 代 谢 成 犬 尿 氮 酸 , 犬 尿 氮 
酸 可 转化 为 黄 尿 酸 。 犬 尿 氨 酸 甲 酰胺 酶 (kynurenine 
KFase ), 也 称 芳 基 甲 酰胺 酶 
(arylformamidase ) ,该 酶 能 够 可 逆 地 催化 N- 甲 酰 -L- 
犬 尿 氮 酸 (N-formyl-L-kynurenine，NFK ) 水 解 ,产生 
L- 犬 尿 氨 酸 及 甲酸 。 该 酶 是 色 氨 酸 代 谢 的 犬 尿 氨 酸 
途径 中 第 2 个 酶 ,是 犬 尿 氨 酸 途 径 的 限 速 酶 之 一 。 
抑制 KFase 不 仅 会 对 蚊虫 的 正常 生理 功能 造成 不 利 
影响 ,还 可 以 减少 黄 尿 酸 的 生成 ,抑制 首 原 忠 小 配子 
的 生成 ,使 按 蚊 体 内 的 症 原虫 无 法 受精 产生 卵 填 及 
子 孢 子 , 从 而 抑制 症 原 忠 的 传播 。 

办 比 亚 按 蚊 作 为 寄生 虫 学 研究 的 模式 生物 之 
一 ,具备 寄生 虫 传播 媒介 的 典型 特征 。 因 此 研究 内 



























































formamidase ， 
































比 亚 按 蚊 KFase 的 抑制 剂 , 有 利于 蚊虫 防 控 技 术 的 
发 展 。 本 研究 的 目的 是 ,利用 在 线 数据 库 、 分 子 动力 
学 模拟 ( molecular dynamics simulation ，MD ) 及 分 子 
对 接 等 方法 ,对 冈比亚 按 蚊 KFase 进行 三 维 结构 建 
模 , 并 依据 模型 对 其 潜在 抑制 剂 进行 虚拟 筛选 ,筛选 
结果 可 用 于 新 型 杀 蚊 剂 的 进一步 实验 室 研 究 ,降低 
易 感 人 群 感染 疙 疾 等 虫 媒 传染 病 的 风险 。 

















1 材料 与 方法 


1.1 目标 氨基 酸 序列 

UniProt 数据 库 (www. uniprot. org ) 收录 了 冈 比 
亚 按 蚊 KFase 的 氨基 酸 序 列 , 其 UniProt 编号 为 
Q7QKH2 ,与 其 序列 同时 得 到 确认 的 还 有 其 活性 位 
点 。 下 载 该 序列 ,作为 同 源 结构 建 模 的 目标 氨基 酸 
序列 。 
1.2 三 维 结构 模板 选择 与 同 源 建 模 

使 用 NCBI ( National Center for Biotechnology 
Information) 提供 的 BLASTP (blast. ncbi. nlm. nih. 
gov) 在 无 见 余 蛋白 序列 数据 库 (non-redundant 
protein sequence database ) 中 搜索 同 源 序列 并 下 载 比 
对 序列 的 FASTA 文件 ,利用 MEGA6 构建 进化 树 
(Tamura et al., 2013) , 先 使 用 ClustalW 比 对 序列 ， 
最 大 似 然 法 (maximum likelihood ，ML ) 构建 系统 发 
育 树 ,Bootstrap 设置 为 500。 选 择 进 化 距离 最 近 并 
且 在 PDB 数据 库 (www. rcsb. org) 中 有 三 维 结构 的 
同 源 蛋白 作为 同 源 建 模 所 使 用 的 结构 模板 ,在 PDB 
数据 库 ( www. rcsb. org) 中 下 载 该 结构 模板 , 利用 
AutoDock Toolsl. 5.6 (Morris et al., 2009 ) 对 其 进行 
编辑 ,删除 其 中 的 水 分 子 及 其 他 小 分 子 , 作 为 同 源 建 
模 结 构 模 板 。 
将 目标 氨基 酸 序 列 (UniProt ID : Q7QKH2 ) 与 结 
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构 模 板 输 入 SWISS-MODEL 服务 器 (www. 
swissmodel. expasy. org ) 进行 同 源 建 模 ( Arnold et al.， 
2006; Kiefer et al., 2009 ; Biasini et al., 2014) ,获得 
的 结构 模型 用 于 作为 虚拟 筛选 中 的 受 体 模 型 。 

1.3 动力 学 模拟 与 建 模 结 果 的 评估 











Ambertools16 (Wang et al.，2006 ) 软件 及 ACPYPE 
(Silva and Vranken，2012 ) 软件 生成 能 够 适应 
Amber 力 场 的 、 较 为 准确 的 小 分 子 拓扑 。 按照 
Gromacs5.1.2 复合 物 动力 学 模拟 的 方式 定义 水 盒 
参数 并 填充 水 分 子 、 添 加 钠 离子 和 氯 离子 ,并 进行 能 











冈比亚 按 蚊 KFase 模型 的 动力 学 模拟 是 通过 
Gromacs 5. 1.2( Abraham et al., 2015; Kutzner et al., 
2015 ) 运 算 完成 的 。 动 力学 模拟 所 使 用 的 力 场 是 
Gromacs5.1.2 内 置 的 Gromos96 力 场 ,水 体 设 置 为 立 
方 型 (Cube) ,设置 周期 边界 ,在 水 体 中 添加 钠 离 子 
和 和 握 离子 确保 体系 时 电 中 性 。 随 后 进行 能 量 最 小 
化 .恒定 粒子 数 . 体 积 和 温度 (constant number of 
particles，volume ，and temperature，NVT) 平 衡 ,以 及 
恒定 粒子 数 .、 压 力 和 温度 (constant number of 
particles ，pressure ，and temperature ，NPT ) 平衡 , 然 
后 模拟 冈比亚 按 蚊 KFase 在 水 环境 中 50 ns 的 动力 
学 过 程 。 最 后 利用 Gromacs5.1.2 自 带 的 分 析 工 具 
获取 数据 , 并 利用 Xmgrace ( http: // plasma-gate. 
weizmann. ac. il/Grace ) 对 产生 的 数据 进行 绘图 , 根 
据 动 力学 模拟 过 程 中 体系 能 量 对 建 模 得 到 的 KFase 
结构 模型 进行 稳定 性 评估 。 
1.4 蛋白 质 与 底 物 复合 物 的 动力 学 模拟 

利用 AutoDock Vina(Trott and Olson，2010 ) 和 
AutoDock Tools1.5.6 对 KFase 酶 蛋白 与 本 酶 目标 底 
物 N- 甲 醚 -LL 犬 尿 氮 酸 (N-formal-L-kynurenine， 
NFK) ,在 酶 蛋白 的 活性 中 心 附近 进行 刚性 对 接 , 酶 
蛋白 作为 受 体 设置 成 完全 刚性 ,而 NFK 模型 则 将 尽 
可 能 多 的 共 价 键 设置 成 可 旋转 ,保证 本 分 子 模型 的 
柔性 尽 可 能 地 高 。 通 过 本 次 刚性 分 子 对 接 , 得 到 对 
接 结果 的 PDBQT 文件 ,从 对 接 结果 的 PDBQT 文件 
中 选择 出 两 个 分 子 结合 得 最 佳 的 构象 , 即 配 体 中 的 
酰胺 键 与 酶 蛋白 活性 中 心 的 丝 氮 酸 残 基 距 离 尽 可 能 
接近 ,同时 亲 和 能 还 要 尽 可 能 地 低 。 

利用 AutoDock Tools1. 5.6 分 别提 取 受 体 冈 比 
亚 按 蚊 KFase 和 配 体 NFK 的 PDB 格式 分 子 模型 ,其 
中 配 体 分 子 模型 在 保存 前 添加 氧 原子 。 利 用 

































































量 最 小 化 .NVT 平衡 和 NPT 平衡 以 及 动力 学 模拟 ， 
模拟 结束 后 提取 冈比亚 按 蚊 KFase 的 模型 并 保存 为 
PDB 格式 ,用 于 小 分 子 化 合 物 的 虚拟 筛选 。 

1.5 随机 森林 方法 对 小 分 子 化 合 物 数据 库 的 筛选 
与 评估 

将 氨基 甲酸 酯 类 化 合 物 中 一 些 具有 代表 性 的 有 
效 物质 选取 出 来 ,其 中 包括 涕 灭 威 (aldicarb ) 、 西 维 
(carbaryl) 、 呐 喃 丹 (carbofuran) 、 异 索 威 (isolan)、 
异 两 威 (isoprocarb )、 速 灭 威 (metolcarb ) 、 抗 蚜 威 
(pirimicarb )、 氮 基 甲 酸 甲 酯 (urethylane， 又 名 尿 基 
烷 )( 刘 角 锋 等 , 2002) ,并 加 上 N- 甲 酰 -D- 犬 尿 氮 酸 
(Nagai et al., 1994) ,将 这 9 种 物质 组 成 一 个 集合 ， 
作为 有 效 的 阳性 对 照 集 合 。 

男 收集 其 他 10 种 相对 分 子 质 量 接近 、 分 子 结构 
与 上 述 几 种 物质 包含 一 定 相似 性 但 无 明显 抑制 作用 
的 小 分 子 有 机 物 作为 阴性 对 照 集 合 。 

将 两 个 集合 组 成 一 个 训练 集 , 采 用 MOLD2 
(Hong et al.，2008 ) 软件 ,结合 随机 森林 方法 
(Breiman, 2001) 进 行 虚拟 筛选 。 

将 训练 集中 的 阳性 和 阴性 集合 分 别 输入 软件 
中 ,并 对 分 子 描述 符 进行 评估 和 筛选 ,从 779 个 分 子 
描述 符 中 选 出 对 于 筛选 最 有 价值 的 描述 符 : 

分 子 模型 的 SDF 文件 输入 MOLD2 软件 后 , 首 
先 去 除 每 一 列 包 含 0 的 个 数 大 于 85% 的 描述 符 , 然 
后 去 除 方差 小 于 0. 05 的 描述 符 ;最 后 去 除 绝对 相关 
系数 大 于 0. 95 的 两 个 描述 符 中 的 一 个 。 经 过 本 轮 
筛选 ,描述 符 数 量 减 为 171 个 ,随后 利用 特征 选择 进 
行 下 一 轮 的 描述 符 的 评估 和 筛选 ( 谢 娟 英 等 ， 
2010)。 

Chen 和 Lin (2006) 给 定 训练 样本 第 i 个 特征 的 
F-score 定义 为 : 
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其 中 , 正 类 和 负 类 的 样本 数 分 别 为 n, 和 n_; x， 
x(*) 和 wx”) 分别 为 第 i 个 特征 在 整个 数据 集 上 的 
平均 值 ,在 正 类 数据 集 上 的 平均 值 和 在 负 类 数据 集 
上 的 平均 值 ;x 人 1 为 第 个 正 类 样本 点 的 第 i 个 特征 
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的 特征 值 ;xx7 为 第 个 负 类 样本 点 的 第 i 个 特征 的 
特征 值 ;F 值 越 大 ,此 特征 的 辨别 能 力 越 强 。 

基于 了 -score 方法 设计 一 个 对 分 子 描述 符 集 合 
的 评估 算法 ,流程 如 下 : 
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初始 的 描述 符 集 


刘 算 每 个 描述 符 的 F-score 值 





对 所 有 描述 符 的 F-score 值 进行 降序 排序 








选取 样本 集中 前 N 个 较 大 
F-score 值 的 描述 符 
N=1, 2,…,m 


随机 森林 评估 









否 


得 到 最 佳 特征 描述 符 子 集 


图 1 最 佳 分 子 描述 符 特征 子 集 流程 图 


Fig. 1 Flow chart of characteristic subset of optimum 











molecular descriptors 


经 过 此 算法 得 选 ,最 终 得 到 一 定数 目的 最 佳 特征 描 





取 大 于 400 投票 的 数据 ,计算 5 次 , 取 交 集 。 最 终 得 
到 筛选 后 的 小 分 子 化 合 物 集合 。 
1.6 抑制 剂 筛 选 结果 的 分 子 对 接 

对 冈比亚 按 蚊 KFase 与 NFK 复合 物 的 动力 学 
模拟 结果 进行 整理 ,提取 其 中 的 冈比亚 按 蚊 KFase 
结构 。 利 用 AutoDock Vina( Tanchuk et al.,2015; 
Jaghoori et al., 2016) 对 此 冈比亚 按 蚊 KFase 结构 与 
NFK 进行 100 次 半 柔 性 对 接 , 了 解 复 合 物 中 冈比亚 
按 蚊 KFase 与 NFK 的 亲 和 能 情况 ,作为 对 抑制 剂 第 
选 结果 进行 评估 的 参照 数据 。 

利用 AutoDock Vina 对 筛选 后 的 小 分 子 化 合 物 
进行 半 和 柔性 对 接 。 受 体 选用 KFase 与 NFK 复合 物 
动力 学 模拟 结果 中 的 蛋白 质 结 构 ,AutoDock Tools 中 
网 格 框 体 设置 于 活性 中 心 附近 并 包含 整个 活性 中 心 。 

每 个 化 合 物 对 接 3 次 , 取 亲 和 能 最 低 的 数据 及 
对 应 构象 ,进行 整理 和 排序 , 取 排 名 靠 前 的 化 合 物 作 
为 配 体 与 酶 形成 复合 物 进 行动 力学 模拟 。 
1.7 配 体 与 酶 复合 物 的 动力 学 模拟 

以 1.6 节 获 得 的 3 种 亲 和 能 最 低 的 化 合 物 作 为 
配 体 , 结 合 前 文 1.4 节 中 提 及 的 蛋白 质 - 底 物 复合 物 




















述 符 子 集 。 

把 训练 集 的 19 个 分 子 通 过 最 佳 特 征 描述 符 子 
集 的 SOM 计算 聚 类 。 然 后 通过 聚 类 来 挑 取 训练 集 
和 测试 集 。 

编订 了 4 个 神经 元 : 

1 号 神经 元 6 个 数据 ,序号 为 :[11 14 15 16 17 
18] ;2 号 神经 元 4 个 数据 ,序号 为 :[10 12 13 19];3 
号 神经 元 4 个 数据 ,序号 为 :[1 3 79];4 号 神经 元 5 
个 数据 ,序号 为 :[245 6 8]。 

随机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ,这 
些 决 策 树 是 随机 产生 的 ,随机 森林 中 决策 树 之 间 没 
有 关联 。 

测试 数据 进入 随机 森林 ,每 一 棵 决策 树 对 测试 






































动力 学 模拟 的 方法 ,利用 Gromacs 5. 1. 2 逐个 进行 
与 交 比 亚 按 蚊 KFase 的 复合 物 动 力学 模拟 ,并 结合 
AutoDock Vina 的 进行 刚性 对 接 最 终 确 认 其 亲 和 能 ， 
与 冈比亚 按 蚊 KFase 和 NFK 亲 和 能 数据 进行 对 比 ， 
确认 其 相对 于 NFK 是 否 有 足够 强 的 竞争 性 。 








2 结 


2.1 KFase 系统 发 育 分 析 与 模板 的 选择 

基于 NCBI 提供 的 BLASTP 对 从 Uniprot 获得 的 
冈比亚 按 蚊 KFase 的 FASTA 序列 ,在 无 元 余 蛋 白 序 
列 (non-redundant protein sequences ) 数据 库 中 进行 同 
源 序列 搜索 。 结 果 表 明 , 冈 比 亚 按 蚊 KFase 与 其 他 蚊 
虫 的 KFase 最 接近 。 在 搜索 到 的 同 源 序列 中 , 仅 黑 腹 














数据 进行 分 类 ,最 后 取 所 有 决策 树 中 分 类 结果 最 多 
的 那 类 为 最 终 的 结果 。 默认 的 决策 树 500 棵 。 

对 于 训练 集 的 19 个 分 子 , 在 4 组 聚 类 中 ,分别 
选取 75% 为 训练 集 , 剩 下 的 25% 为 测试 集 , 检 验 随 
机 森林 盘 选 的 有 效 性 。 

从 ZINC 数据 库 (http: /zine. docking. org/) 下 
载 Prag Now 数据 库 文件 ,该 文件 中 包含 有 超过 
704 040 个 相对 分 子 质量 不 大 于 250 的 化 合 物 数据 。 
将 该 文件 拆 分 成 多 个 sdf 文件 ,并 输入 MOLD2。 利 
用 前 文选 定 的 方法 进行 筛选 ,利用 决策 树 进 行 投票 。 

















果 晶 Drosophila melanogaster KFase 具 有 三 维 结构 
(www.rcsb. org, PDB ID: 4F14)。 办 比 亚 按 蚊 KFase 
与 黑 腹 果 蝇 KFase 的 氨基 酸 序 列 一 致 性 为 36% , 活 
性 中 心 的 关键 残 基 附 近 序列 高 度 相 似 (图 2)。 

利用 MEGA6 中 ClustalW 对 同 源 和 蛋白 氨基 酸 序 
列 的 全 长 进行 比 对 , 并 用 最 大 似 然 法 ( maximum 
likelihood，ML) 建立 进化 树 (图 3)。 在 分 析 中 ， 
Bootstrap 检验 次 数 设 为 500 次 ,并 选择 LG + G 模型 
分 析 。 从 图 3 中 也 可 以 看 到 ,在 进化 树 中 ,冈比亚 按 
蚊 KFase 和 黑 腹 果 蝇 KFase 进化 距离 不 远 。 鉴 于 以 
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上 原因 ,我 们 选择 了 黑 复 果 蝇 KFase 的 三 维 结构 作 ”ID: 4E14 ) 序列 一 致 性 37. 96% ,使 用 RAMPAGE 





为 同 源 建 模 的 结构 模版 。 ( http: / mordred. bioc. cam. ac. uk/ ~ rapper/ 
2.2 冈比亚 按 蚊 KFase 的 分 子 建 模 rampage. php ) 分 析 SWISS-MODEL 构建 模型 的 拉 氏 


经 过 SWISS-MODEL 建 模 显示 (图 4) ,目标 氮 。 构象 图 ,结果 允许 区 93.3% ,最 大 允许 区 4.6% ,不 
基 酸 序列 ( UniProt ID:Q7QKH2 ) 与 结构 模板 (PDB ” 允许 区 6% ,模型 结构 合理 。 


An gamiae PPBESTIE TB... .RIDY 全 46 





mlanogaster 96 
A sanmbiae 95 
内 melanosaster 146 
SEC 145 
DD mlanogaster 195 
A samwiae 195 
DL mlangaster 239 
A SEC 245 
DD mianosaster 289 
出， sambiae 295 





i ee Bd eR a 
到 2 内 比 亚 按 蚊 与 黑 腹 果 晶 KFase 的 序列 比 对 


Fig. 2 Amino acid sequence alignment of KFase proteins of Anopheles gambiae and Drosophila melanogaster 


红色 星 号 标注 为 催化 活性 中 心 周围 残 基 。The residues around the active center are indicated by an asterisk and shown in red color. 





























Bombyr wori KFase (XP 012547965.1) 

Cunio marinmus KFase (CRL O06829,1) 

Cunio marinus KFase (CRE 87453.1) 
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Sere yakuba EFase (XP 002088177.1) 
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Aedes albopictus KFase (XP 019561130.1) 

Aedes acgypti KFase (ABF 18206.1) 











62 





02 





器 








3 ”冈比亚 按 蚊 KFase 与 BLASTP 检索 的 同 源 蛋 白 的 进化 树 分 析 ( 最 大 似 然 法 ) 
Fig. 3 Phylogenetic analysis of KFase of Anopheles gamiae and homologous proteins searched 
by BLASTP (maximum likelihood method) 
标尺 示 遗 传 距离 ;Bootstrap 的 百分率 在 进化 树 的 节点 上 标 出 。The scale bar indicates the genetic distance, and the percentage of 


bootstrap is indicated on branches. 
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4 冈比亚 按 蚊 KFase 的 SWISS-MODEL 同 源 建 模 结构 (A) 与 黑 腹 果 晶 KFase 的 三 维 结构 比 对 (B) 
Fig. 4 Model of KFase of Anopheles gambiae got by SWISS-MODEL (A) and the 3D alignment with 





KFase of Drosophila melanogaster (了 B) 
绿色 为 冈比亚 按 蚊 KFase 三 维 结构 , 蓝 色 为 黑 腹 果 蝇 KFase 三 维 结构 。The 3D structure of An. gambiae is shown in green color and that of D. 





melanogaster in blue color. 


2.3 冈比亚 按 蚊 KFase 的 动力 学 模拟 

SWISS-MODEL 构建 的 冈比亚 按 蚊 KFase 结构 
模型 在 水 环境 中 20 ns 的 动力 学 模拟 后 ,蛋白 结构 
发 生 了 一 定 程度 的 形变 ,但 最 核心 的 部 分 仍 保持 稳 
定 , 主 要 的 Qa- 螺旋 及 B- 片 层 结构 均 未 遭受 破坏 , 相 
对 位 置 变化 较 小 ;组 成 活性 中 心 的 SER159 ，ASP253 
和 HIS285 依然 彼此 靠近 ,因此 活性 中 心 的 结构 也 未 
遭受 破坏 ,如 图 5 所 示 , 图 5(A) 为 动力 学 模拟 前 的 
同 源 建 模 模型 ,图 5(B) 为 模拟 在 水 环境 中 50 ns 动 
力学 过 程 后 的 KFase 结构 模型 。 图 6 中 可 观察 到 分 
子 动力 学 模拟 过 程 中 分 子 势能 稳定 。 
2.4 底 物 与 酶 复合 物 动力 学 模拟 

冈比亚 按 蚊 KFase 和 底 物 NFK 的 复合 物 模 型 在 
20 ns 的 动力 学 过 程 后 ,达到 了 较为 稳定 的 结合 态 ( 图 
7)。 图 7(A) 为 能 量 最 小 化 过 程 中 的 分 子 势 能 变 


化 ,图 中 显示 在 前 200 ps 体系 能 量 迅速 下 降 ,200 ps 
后 体系 能 量 趋 于 稳定 。 图 7(B) 为 动力 学 模拟 过 程 
分 子 势能 变化 ,图 7(C) 为 动力 学 模拟 过 程 中 的 分 子 
动能 变化 ,图 中 显示 经 过 复合 物 模 型 体系 在 20 ns 
的 动力 学 模拟 过 程 中 分 子 势 能 和 分 子 动能 稳定 。 
2.5 随机 森林 方法 对 小 分 子 化 合 物 数 据 库 的 筛选 

经 MOLD2 处 理 ,779 个 描述 符 得 得 171 个 描述 
符 。 随 后 利用 F-score 进行 特征 选择 。 最 终 从 171 
个 描述 符 中 得 到 49 个 最 佳 特 征 描述 符 , 用 于 对 小 分 
子 化 合 物 数 据 库 进行 随机 森林 筛选 。 对 含有 超过 
70 万 个 化 合 物 的 数据 库 进 行 随机 森林 划 选 , 取 大 于 
400 投票 的 数据 ,计算 5 次 , 取 交 集 , 共 有 405 个 化 
合 物 。 随 后 用 AutoDock Vina 化 合 物 对 这 405 个 化 
合 物 进行 分 子 对 接 ,每 个 化 合 物 对 接 3 次 , 取 亲 和 能 
最 低 者 ,进行 排序 。 








5 ”冈比亚 按 蚊 KFase 结构 模型 动力 学 模拟 前 (A) 和 后 (B) 分 子 模型 的 构象 


Fig. 5 ” Molecular structure of KFase of Anopheles gambiae model before ( A) and after (B) molecular dynamics simulation 
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图 6 动力 学 模拟 过 程 中 冈比亚 按 蚊 KFase 分 子 势能 的 变化 


Fig. 6 Changes in the potential energy of KFase of Anopheles gambiae during molecular dynamics simulation 


编号 ZINC02711341 ( N-(2,4-diketo-1H-pyrimidin- 
6-yl ) -2-fluoro-benzamide ) ， ZINC26420338 ( 3-( 4- 
fluoropheny] ) -2 ,4-dioxo-1 ,2 ,3 ,4-tetrahydropyrimidine- 
$5-carboxylic acid ) 和 ZINC38548901 ( N-(2-oxo-2 ,3- 
dihydro-1H-imidazo[ 4, 5-b | pyridin-5$-yl ) -succinamic 
acid) 的 物质 在 半 和 柔性 对 接 的 虚拟 筛选 中 ,其 亲 和 能 
最 低 ,同时 构象 最 佳 。 将 该 3 种 化 合 物 作为 配 体 ,分 
别 与 酶 形成 复合 物 用 于 动力 学 模拟 。 
2.6 ” 配 体 与 酶 复合 物 的 动力 学 模拟 

编号 ZINC26420338 的 小 分 子 化 合 物 与 冈比亚 
按 蚊 KFase 复合 物 ( 图 8: A) 利 用 刚性 对 接 计算 六 
和 能 时 ,显现 出 了 -8.7 kcal/mol 的 亲 和 能 ,推测 其 
为 风 比 亚 按 蚊 KFase 的 潜在 竞争 性 抑制 剂 。 在 模拟 
10 ns 的 动力 学 过 程 中 该 化 合 物 与 冈比亚 按 蚊 
KFase 的 活性 中 心 充分 结合 ,同时 分 子 势能 稳定 (图 
9: A)。 

编号 ZINC02711341 的 小 分 子 化 合 物 与 冈比亚 
按 蚊 KFase 复合 物 ( 图 8: B) 利 用 刚性 对 接 计算 亲 
和 能 时 ,显现 出 了 - 9.0 kcal/mol 的 亲 和 能 ,推测 其 
为 风 比 亚 按 蚊 KFase 的 潜在 竞争 性 抑制 剂 。 在 模拟 
10 ns 的 动力 学 过 程 中 该 化 合 物 与 冈比亚 按 蚊 
KFase 的 活性 中 心 充分 结合 ,同时 分 子 势能 稳定 (图 
9: B)。 

编号 ZINC38548901 的 小 分 子 化 合 物 与 浆 比 亚 
按 蚊 KFase 复合 物 (图 8: C) 利 用 刚性 对 接 计 算 亲 
和 能 时 ,显现 出 了 -8.9 kcal/mol 的 亲 和 能 ,推测 

































































其 为 冈比亚 按 蚊 KFase 的 潜在 竞争 性 抑制 剂 。 在 
模拟 10 ns 的 动力 学 过 程 中 该 化 合 物 与 冈比亚 按 
蚊 KFase 的 活性 中 心 结合 ,同时 分 子 势能 稳定 (图 
9 : C) O 


3 讨论 


随 着 计算 机 硬件 制造 技术 的 不 断 进步 ,计算 机 
的 应 用 软件 技术 也 得 到 长 足 的 发 展 。 结 合 随 机 森林 
算法 进行 机 器 学 习 和 虚拟 筛选 ,并 利用 同 源 建 模 、 动 
力学 模拟 和 分 子 对 接 等 手段 ,除了 用 于 对 目标 蛋白 
质 的 抑制 剂 进行 虚拟 筛选 外 ,还 可 用 于 激动 剂 等 其 
他 类 型 配 体 的 虚拟 筛选。 虽然 随机 森林 筛选 ,用 于 
生物 信息 学 领域 进行 虚拟 筛选 尚 不 十 分 普遍 ,但 相 
关 筛 选 技术 已 较为 成 熟 。 如 同 源 建 模 技术 由 于 大 量 
蛋白 质 结构 被 解析 ,并 收集 在 蛋白 质 结 构 数 据 库 
PDB( http: /www. resb. org) ,获得 大 量 的 结构 模板 ; 
以 经 典 分 子 力学 为 基础 的 动力 学 模拟 技术 ,实现 在 
分 子 水 平 阐释 分 子 间 的 相互 作用 机 制 ;分 子 对 接 技 
术 在 药物 设计 等 领域 成 为 常用 的 技术 。Kain 等 
(2013 ) 以 驱 蚊 胺 受 体 为 靶 标 的 虚拟 筛选 ,用 到 了 多 
种 方法 和 技术 ,包括 基于 前 进 序列 选择 (sequential- 
forward-selection ) 算法 的 机 器 学 习 和 虚拟 筛选 ,找到 
多 种 小 分 子 化 合 物 可 以 作为 新 型 蚊虫 驱 避 剂 。 赵 瑞 
等 (2015 ) 以 5- 羟色胺 转运 体 为 受 体 靶 标 ,运用 生物 
筛选 结合 虚拟 筛选 进行 了 大 量 样本 的 高 通 量 筛选 ， 
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图 7 NFK 与 冈比亚 按 蚊 KFase 的 复合 物 在 动力 学 模拟 过 程 中 的 能 量变 化 


Fig. 7 Energy changes of the complex of NFK and KFase of Anopheles gambiae during molecular dynamics simulation 
A: 能 量 最 小 化 过 程 中 分 子 的 势能 变化 Molecular potential energy changes in energy minimization; B: 动力 学 模拟 过 程 中 分 子 的 势能 变化 Molecular 
potential energy changes in dynamics simulation; C: 动力 学 模拟 过 程 中 分 子 的 动能 变化 Molecular kinetic energy changes in dynamics simulation. 
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图 8 小 分 子 化 合 物 ZINC26420338(A) ，ZINC02711341(B) 和 ZINC38548901(C ) 与 冈比亚 按 蚊 KFase 复合 物 的 结构 模型 


Fig. 8 ”Complex structures of small-molecular compounds ZINC26420338 (A), ZINCO2711341 (B) and ZINC38548901 (C) 
with KFase of Anopheles gambiae 


成 功 第 选 出 了 30 个 达到 预期 抑制 作用 的 化 合 物 。 
汗 江 等 (2015 ) 则 以 HIV-1 蛋白 酶 为 受 体 靶 标 ,结合 
分 子 对 接 等 多 种 方法 建立 了 兼顾 计算 效率 和 预测 准 
确 度 的 筛选 方法 ,成 功 筛选 出 了 与 美国 FDA 批准 上 
市 的 药物 Atazanavir 具备 相似 性 ,但 结构 更 新 颖 的 
的 抑制 剂 。 

由 于 蚊虫 的 KFase 晶体 结构 尚未 得 到 解析 ,但 
根据 同 源 比 对 ,冈比亚 按 蚊 KFase 序列 与 黑 腹 果 蝇 
KFase 的 序列 有 和 较 高 相似 性 ,尤其 是 催化 反应 中 心 
附近 的 氨基 酸 残 基 具 有 高 度 的 相似 性 ,因此 可 以 选 
择 黑 腹 果 晶 KFase 的 三 维 结构 作为 模板 对 冈比亚 按 
蚊 KFase 进行 建 模 。 通 过 对 同 源 建 模 后 的 冈比亚 按 
蚊 KFase 进行 拉 氏 构象 图 分 析 , 大 部 分 氨基 酸 残 基 
的 二 面 角 位 于 构象 允许 区 内 ,并 且 分 析 动 力学 模拟 
过 程 中 的 蛋白 质 形 变 程度 和 能 量变 化 情况 ,说 明 此 
模型 在 水 环境 中 是 稳定 的 ,说 明 选 择 黑 腹 果 晶 
KFase 的 三 维 结构 作为 模板 是 合适 的 。 

ZINC 数据 库 中 3-(4-fluorophenyl) -2 ,4-dioxo-1， 
2,3,4-tetrahydropyrimidine-5-carboxylic acid (编号 
ZINC26420338 ) 、N-(2 ,4-diketo-1H-pyrimidin-6-yl ) - 
2-fluoro-benzamide (编号 ZINC02711341 ) 和 N-(2- 
oxo-2 ,3-dihydro-1H-imidazo [ 4, 5-b ] pyridin-5-yl ) - 
succinamic acid( 编号 ZINC38548901 ) 是 本 次 虚拟 筛 
选 的 最 佳 结 果 , 在 分 子 对 接 中 体现 了 与 冈比亚 按 蚊 
KFase 较 好 的 对 接 效 果 。 在 利用 刚性 对 接 计 算 亲 和 
能 时 , 亲 和 能 分 别 为 -8.7, -9.0 和 -8.9 kcal/ 
mol。 这 些 化 合 物 可 能 是 冈比亚 按 蚊 犬 尿 氨 酸 甲 酰 
胺 酶 的 潜在 竞争 性 抑制 剂 。 同 时 由 于 相对 分 子 质量 
较 小 ,可 能 具备 一 定 的 挥发 性 。 然 而 它们 对 冈比亚 
按 蚊 KFase 的 抑制 作用 和 是 否 有 杀 蚊 效果 还 需 做 更 


























深入 的 试验 验证 。 另 外 ,该 3 种 化 合 物 的 应 用 目前 
还 没有 文献 报道 ,其 理化 性 质 尤其 是 毒 理 和 药理 分 
析 有 待 深入 研究 。 
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